Existing Cross Modal Hashing (CMH) methods are mainly designed for balanced data, while imbalanced data with long-tail distribution is more general in real-world. Several long-tail hashing methods have been proposed but they can not adapt for multi-modal data, due to the complex interplay between labels and individuality and commonality information of multi-modal data. Furthermore, CMH methods mostly mine the commonality of multi-modal data to learn hash codes, which may override tail labels encoded by the individuality of respective modalities. In this paper, we propose LtCMH (Long-tail CMH) to handle imbalanced multi-modal data. LtCMH firstly adopts auto-encoders to mine the individuality and commonality of different modalities by minimizing the dependency between the individuality of respective modalities and by enhancing the commonality of these modalities. Then it dynamically combines the individuality and commonality with direct features extracted from respective modalities to create meta features that enrich the representation of tail labels, and binaries meta features to generate hash codes. LtCMH significantly outperforms state-of-the-art baselines on long-tail datasets and holds a better (or comparable) performance on datasets with balanced labels.
translated by 谷歌翻译
对话中的多模式情绪识别(MERC)是自然语言处理(NLP)的一个积极研究主题,旨在预测人类在多种方式的交流中,e,g。,自然语言和面部手势的情绪状态。无数的隐式偏见和先入为主填补了人类的语言和对话,导致了当前数据驱动的MERC方法是否会产生偏见错误的问题。例如,这种方法可能比男性提供更高的情感分数。此外,现有的DEBIA模型主要集中在性别或种族上,在这种性别或种族中,缓解多重次数仍然是MERC中未开发的任务。在这项工作中,我们采取了第一步来解决这些问题,提出一系列方法来减轻文本话语(即性别,年龄,种族,宗教和LGBTQ+)和视觉表现(即性别和性别和性别和性别和性别和性别)的五种典型偏见。年龄),随后是富含双模式变压器(MMKET)的多次减少和情感知识。全面的实验结果表明了提出的模型的有效性,并证明了Debias操作对MERC的分类性能有很大的影响。我们希望我们的研究将有益于MERC和相关情绪研究中缓解偏见的发展。
translated by 谷歌翻译
手语翻译作为一种具有深刻社会意义的技术,近年来吸引了研究人员的利益。但是,现有的标志语言翻译方法需要在开始翻译之前阅读所有视频,这导致高推理延迟,并限制了它们在现实方案中的应用程序。为了解决这个问题,我们提出了SIMULSLT,这是第一端到端同步标志语言翻译模型,可以同时将手语录像机转换为目标文本。 SIMUSLT由文本解码器,边界预测器和屏蔽编码器组成。我们1)使用Wait-K战略同时翻译。 2)基于集成和火灾模块设计一种新的边界预测器,以输出光泽边界,该边界用于模拟手语视频和光泽之间的对应关系。 3)提出了一种创新的重新编码方法来帮助模型获取更丰富的上下文信息,这允许现有的视频功能完全交互。在Rwth-Phoenix-MoreSt 2014T数据集上进行的实验结果表明,SIMUSLT实现了超过最新的端到端非同时标志语言翻译模型的BLEU分数,同时保持低延迟,这证明了我们方法的有效性。
translated by 谷歌翻译
The exploration of mutual-benefit cross-domains has shown great potential toward accurate self-supervised depth estimation. In this work, we revisit feature fusion between depth and semantic information and propose an efficient local adaptive attention method for geometric aware representation enhancement. Instead of building global connections or deforming attention across the feature space without restraint, we bound the spatial interaction within a learnable region of interest. In particular, we leverage geometric cues from semantic information to learn local adaptive bounding boxes to guide unsupervised feature aggregation. The local areas preclude most irrelevant reference points from attention space, yielding more selective feature learning and faster convergence. We naturally extend the paradigm into a multi-head and hierarchic way to enable the information distillation in different semantic levels and improve the feature discriminative ability for fine-grained depth estimation. Extensive experiments on the KITTI dataset show that our proposed method establishes a new state-of-the-art in self-supervised monocular depth estimation task, demonstrating the effectiveness of our approach over former Transformer variants.
translated by 谷歌翻译
降级扩散概率模型(DDPM)最近在许多生成任务中都取得了领先的性能。但是,继承的迭代采样过程成本阻碍了他们的应用程序到文本到语音部署。通过有关扩散模型参数化的初步研究,我们发现以前基于梯度的TTS模型需要数百或数千个迭代以保证高样本质量,这对加速采样带来了挑战。在这项工作中,我们提出了Prodiff的建议,以用于高质量文本到语音的渐进快速扩散模型。与以前的估计数据密度梯度的工作不同,Prodiff通过直接预测清洁数据来避免在加速采样时避免明显的质量降解来参数化denoising模型。为了通过减少扩散迭代来应对模型收敛挑战,Prodiff通过知识蒸馏减少目标位点的数据差异。具体而言,Denoising模型使用N-Step DDIM教师的生成的MEL光谱图作为训练目标,并将行为提炼成具有N/2步的新模型。因此,它允许TTS模型做出尖锐的预测,并通过数量级进一步减少采样时间。我们的评估表明,Prodiff仅需要两次迭代即可合成高保真性MEL光谱图,同时使用数百个步骤保持样本质量和多样性与最先进的模型竞争。 Prodiff在单个NVIDIA 2080TI GPU上的采样速度比实时快24倍,这使得扩散模型实际上是第一次适用于文本到语音综合部署。我们广泛的消融研究表明,Prodiff中的每种设计都是有效的,我们进一步表明,Prodiff可以轻松扩展到多扬声器设置。音频样本可在\ url {https://prodiff.github.io/。}上找到
translated by 谷歌翻译
我们在一般的非线性函数近似下研究无奖励增强学习(RL),并在各种标准结构假设下建立样品效率和硬度结果。从积极的一面来看,我们提出了在最小的结构假设下进行样品有效奖励探索的Rfolive(无奖励橄榄)算法,该假设涵盖了先前研究的线性MDPS的设置(Jin等,2020b),线性完整性(线性完整性)( Zanette等人,2020b)和低级MDP,具有未知的表示(Modi等,2021)。我们的分析表明,以前针对后两个设置的易学性或可及性假设在统计上对于无奖励探索而言并不是必需的。在负面方面,我们为在线性完整性假设下的无奖励和奖励意识探索提供统计硬度结果时,当基础特征未知时,显示了低级别和线性完整性设置之间的指数分离。
translated by 谷歌翻译
我们考虑在离线增强学习中有一个具有挑战性的理论问题(RL):仅在功能近似器的可靠性型假设下,通过缺乏足够覆盖的数据集获得样本效率保证。尽管现有的理论已经在可实现性和非探索数据下分别解决了学习,但没有工作能够同时解决这两者(除了我们对详细比较的并发工作除外)。在额外的差距假设下,我们根据边缘化重要性采样(MIS)形成的版本空间(MIS)为简单的悲观算法提供保证,并且保证只需要数据来涵盖最佳策略和功能类,以实现最佳价值和最佳价值和密度比函数。尽管在RL理论的其他领域中使用了类似的差距假设,但我们的工作是第一个识别离线RL中差距假设的实用性和新型机制,其功能近似较弱。
translated by 谷歌翻译
部署效率是许多实际应用程序应用(RL)的重要标准。尽管社区的兴趣越来越大,但对于该问题缺乏正式的理论表述。在本文中,我们从“具有约束的优化”的角度提出了一种用于部署有效的RL(DE-RL)的公式:我们有兴趣探索MDP并在最小值{部署复杂性}中获得近乎最佳的策略。 ,而在每个部署中,策略可以采样大量数据。使用有限的摩尼子线性MDP作为具体的结构模型,我们通过建立信息理论下限,并提供实现最佳部署效率的算法来揭示实现部署效率的基本限制。此外,我们对DE-RL的配方是灵活的,可以作为其他实际相关设置的基础;我们将“安全的DE-RL”和“样本有效的DE-RL”作为两个例子,这可能是值得将来的研究。
translated by 谷歌翻译
视网膜血管疾病影响人体的福祉,有时会提供其他缺陷的身体损伤的生命体征。最近,已经成功地应用了深度学习技术以检测糖尿病视网膜病变(DR)。应用深层学习技术的主要障碍检测大多数其他视网膜血管疾病是可用的有限数量的数据。在本文中,我们提出了一种转移学习技术,其旨在利用用于检测视网膜血管疾病的特征相似性。我们选择良好的DR检测作为源任务,并确定作为目标任务的早产儿(ROP)视网膜病变的早期检测。我们的实验结果表明,我们的DR预训方法在所有指标中占据了传统的想象预训过的转移学习方法,目前在医学图像分析中采用。此外,我们的方法对培训过程的随机性以及减少训练样本方面更加强大。本研究表明,我们建议的转移学习方法具有广泛的视网膜血管疾病或病态的潜力,其中数据有限。
translated by 谷歌翻译
作为谈论脸生成的关键组成部分,唇部运动产生决定了所产生的谈话脸视频的自然度和相干性。前文学主要侧重于语音到唇部生成,而文本到唇(T2L)生成缺乏缺乏。 T2L是一个具有挑战性的任务,现有的端到端工作取决于注意机制和自回归(AR)解码方式。然而,AR解码方式产生在先前生成的帧上的当前唇框,其固有地阻碍推广速度,并且对由于误差传播引起的产生唇框的质量有不利影响。这鼓励了并行T2L代的研究。在这项工作中,我们提出了一种用于快速和高保真文本到唇部生成(Paralip)的平行解码模型。具体地,我们预测编码语言特征的持续时间和模型在编码的语言特征上调节的目标唇框,其持续时间以非自动增加方式。此外,我们纳入了结构相似性指数损失和对抗性学习,以提高产生的唇框的感知质量,并减轻模糊预测问题。在网格和TCD-TIMIT数据集上进行的广泛实验证明了所提出的方法的优越性。视频样本可通过\ URL {https://paralip.github.io/}获得。
translated by 谷歌翻译